The availability of challenging benchmarks has played a key role in the recent progress of machine learning. In cooperative multi-agent reinforcement learning, the StarCraft Multi-Agent Challenge (SMAC) has become a popular testbed for centralised training with decentralised execution. However, after years of sustained improvement on SMAC, algorithms now achieve near-perfect performance. In this work, we conduct new analysis demonstrating that SMAC is not sufficiently stochastic to require complex closed-loop policies. In particular, we show that an open-loop policy conditioned only on the timestep can achieve non-trivial win rates for many SMAC scenarios. To address this limitation, we introduce SMACv2, a new version of the benchmark where scenarios are procedurally generated and require agents to generalise to previously unseen settings (from the same distribution) during evaluation. We show that these changes ensure the benchmark requires the use of closed-loop policies. We evaluate state-of-the-art algorithms on SMACv2 and show that it presents significant challenges not present in the original benchmark. Our analysis illustrates that SMACv2 addresses the discovered deficiencies of SMAC and can help benchmark the next generation of MARL methods. Videos of training are available at https://sites.google.com/view/smacv2
translated by 谷歌翻译
元梯度提供了一种一般方法,以优化增强学习算法(RL)算法的元参数。元梯度的估计对于这些元算法的性能至关重要,并且已经在MAML式短距离元元RL问题的情况下进行了研究。在这种情况下,先前的工作调查了对RL目标的Hessian的估计,并通过进行抽样校正来解决信贷分配问题,以解决预先适应行为。但是,我们表明,例如由DICE及其变体实施的Hessian估计始终会增加偏差,还可以为元梯度估计增加差异。同时,在重要的长马设置中,元梯度估计的研究较少,在这种情况下,通过完整的内部优化轨迹的反向传播是不可行的。我们研究了截短的反向传播和采样校正引起的偏见和差异权衡,并与进化策略进行了比较,这是最近流行的长期替代策略。虽然先前的工作隐含地选择了这个偏见变化空间中的点,但我们解散了偏见和差异的来源,并提出了将现有估计器相互关联的经验研究。
translated by 谷歌翻译
部署到现实世界的自主智能代理必须与对感官输入的对抗性攻击保持强大的态度。在加强学习中的现有工作集中于最小值扰动攻击,这些攻击最初是为了模仿计算机视觉中感知不变性的概念。在本文中,我们注意到,这种最小值扰动攻击可以由受害者琐碎地检测到,因为这些导致观察序列与受害者的行为不符。此外,许多现实世界中的代理商(例如物理机器人)通常在人类主管下运行,这些代理商不容易受到这种扰动攻击的影响。结果,我们建议专注于幻觉攻击,这是一种与受害者的世界模式一致的新型攻击形式。我们为这个新颖的攻击框架提供了正式的定义,在各种条件下探索了其特征,并得出结论,代理必须寻求现实主义反馈以对幻觉攻击具有强大的态度。
translated by 谷歌翻译
合作多代理设置中的标准问题设置是自我播放(SP),其目标是训练一个很好地合作的代理团队。但是,最佳SP政策通常包含任意惯例(“握手”),并且与其他受独立训练的代理商或人类不兼容。后者的Desiderata最近由Hu等人正式化。 2020年作为零射击协调(ZSC)设置,并以其其他游戏(OP)算法进行了部分解决,该算法在纸牌游戏Hanabi中显示出改进的ZSC和人类表现。 OP假设访问环境的对称性,并防止代理在训练过程中以相互不相容的方式破坏它们。但是,正如作者指出的那样,发现给定环境的对称性是一个计算困难的问题。取而代之的是,我们通过简单的K级推理(KLR)Costa Gomes等人表明。 2006年,我们可以同步训练所有级别,我们可以在哈纳比(Hanabi)获得竞争性的ZSC和临时团队表现,包括与类似人类的代理机器人配对。我们还引入了一种具有最佳响应(SYKLRBR)的新方法,即同步的K级推理,该方法通过共同培训最佳响应来进一步提高同步KLR的性能。
translated by 谷歌翻译
事实证明,加固学习(RL)的自适应课程有效地制定了稳健的火车和测试环境之间的差异。最近,无监督的环境设计(UED)框架通用RL课程以生成整个环境的序列,从而带来了具有强大的Minimax遗憾属性的新方法。在问题上,在部分观察或随机设置中,最佳策略可能取决于预期部署设置中环境的基本真相分布,而课程学习一定会改变培训分布。我们将这种现象形式化为课程诱导的协变量转移(CICS),并描述了其在核心参数中的发生如何导致次优政策。直接从基本真相分布中采样这些参数可以避免问题,但阻碍了课程学习。我们提出了Samplr,这是一种Minimax遗憾的方法,即使由于CICS偏向基础培训数据,它也优化了基础真相函数。我们证明并验证了具有挑战性的领域,我们的方法在基础上的分布下保留了最佳性,同时促进了整个环境环境的鲁棒性。
translated by 谷歌翻译
自我玩法是在马尔可夫游戏中构建解决方案的常见范式,可以在协作环境中产生最佳政策。但是,这些政策通常会采用高度专业的惯例,这使与新颖伴侣的比赛变得困难。为了解决这一问题,最近的方法依赖于将对称性和惯例意识编码为政策培训,但是这些方法需要强烈的环境假设,并使政策培训变得复杂。因此,我们建议将惯例的学习转移到信仰空间。具体而言,我们提出了一种信念学习模型,该模型可以维持对培训时间未观察到的政策推出的信念,因此可以在考试时进行解码和适应新的惯例。我们展示了如何利用这一模型来搜索和培训各种政策池中最佳响应,以极大地改善临时团队游戏。我们还展示了我们的设置如何促进细微的代理惯例的解释性和解释性。
translated by 谷歌翻译
我们介绍了\ textit {nocturne},这是一种新的2D驾驶模拟器,用于调查部分可观察性下的多代理协调。夜曲的重点是在不具有计算机视觉的计算开销并从图像中提取特征的情况下,在现实世界中的推理和心理理论方面进行研究。该模拟器中的代理只会观察到场景的障碍,模仿人类的视觉传感限制。 Unlike existing benchmarks that are bottlenecked by rendering human-like observations directly using a camera input, Nocturne uses efficient intersection methods to compute a vectorized set of visible features in a C++ back-end, allowing the simulator to run at $2000+$ steps-per -第二。使用开源轨迹和映射数据,我们构建了一个模拟器,以加载和重播来自现实世界驾驶数据的任意轨迹和场景。使用这种环境,我们基准了加强学习和模仿学习剂,并证明这些代理远离人类水平的协调能力,并显着偏离专家轨迹。
translated by 谷歌翻译
In general-sum games, the interaction of self-interested learning agents commonly leads to collectively worst-case outcomes, such as defect-defect in the iterated prisoner's dilemma (IPD). To overcome this, some methods, such as Learning with Opponent-Learning Awareness (LOLA), shape their opponents' learning process. However, these methods are myopic since only a small number of steps can be anticipated, are asymmetric since they treat other agents as naive learners, and require the use of higher-order derivatives, which are calculated through white-box access to an opponent's differentiable learning algorithm. To address these issues, we propose Model-Free Opponent Shaping (M-FOS). M-FOS learns in a meta-game in which each meta-step is an episode of the underlying inner game. The meta-state consists of the inner policies, and the meta-policy produces a new inner policy to be used in the next episode. M-FOS then uses generic model-free optimisation methods to learn meta-policies that accomplish long-horizon opponent shaping. Empirically, M-FOS near-optimally exploits naive learners and other, more sophisticated algorithms from the literature. For example, to the best of our knowledge, it is the first method to learn the well-known Zero-Determinant (ZD) extortion strategy in the IPD. In the same settings, M-FOS leads to socially optimal outcomes under meta-self-play. Finally, we show that M-FOS can be scaled to high-dimensional settings.
translated by 谷歌翻译
在通用游戏中学习是不稳定的,并且经常导致社会上不受欢迎(占主导地位)的结果。为了减轻这种情况,通过对手的学习意识(LOLA)通过计算每个代理人对对手预期的学习步骤的影响,从而介绍了对手的对手。但是,原始的Lola配方(和后续工作)是不一致的,因为Lola将其他代理商模仿为天真的学习者而不是Lola代理商。在以前的工作中,这种不一致被认为是萝拉未能保留稳定固定点(SFP)的原因。首先,我们将一致性形式化,并表明高阶Lola(Hola)如果汇聚解决了Lola的不一致问题。其次,我们纠正了Sch \“ Afer and Anandkumar(2019)在文献中提出的主张,证明了竞争性梯度下降(CGD)并未作为系列扩展(并且未能解决一致性问题)恢复Hola。第三,我们提出了一种称为一致LOLA(COLA)的新方法,该方法学习在相互对手塑造下保持一致的更新功能。它不需要二阶导数,并且即使Hola无法收敛,也需要一致的更新功能。但是,我们也证明了这一点即使是一致的更新功能也不能保留SFP,这与假设相矛盾:这种缺点是由Lola的不一致引起的。最后,在一系列通用游戏的经验评估中,我们发现可乐找到了亲社的解决方案,并且在更广泛的情况下会融合。与Hola和Lola相比,学习率的范围。我们以简单游戏的理论结果支持后一个发现。
translated by 谷歌翻译
一般政策改进(GPI)和信任区域学习(TRL)是当代强化学习(RL)内的主要框架,其用作解决马尔可夫决策过程(MDP)的核心模型。不幸的是,在他们的数学形式中,它们对修改敏感,因此,实现它们的实际实例化不会自动继承其改进保证。结果,可用严格的MDP-溶剂的光谱窄。实际上,许多最先进的(SOTA)算法,例如TRPO和PPO,不能被证明收敛。在本文中,我们提出了\ Textsl {镜像学习} - 对RL问题的一般解决方案。我们揭示了GPI和TRL,但在这个算法的近似空间内的小点,拥有单调改善性,并收敛到最佳政策。我们表明,RL的几乎所有SOTA算法都是镜像学习的实例,因此表明其实证性能是其理论属性,而不是近似类比的结果。令人兴奋的是,我们表明镜像学习与收敛保证的策略学习方法开辟了全新的全新空间。
translated by 谷歌翻译